基于改进TANC的机器学习文本分类方法研究

基于改进TANC的机器学习文本分类方法研究

作者:师大云端图书馆 时间:2017-08-13 分类:参考文献 喜欢:3575
师大云端图书馆

【摘要】随着计算机的兴起及飞速发展,人们从计算机中得到的数据不断扩大。有效的对数据进行分类、从中得到对用户有用的信息是提高工作效率以及对数据进行管理的关键。文本分类中的数据一般具有规模大、复杂性高及变量多等特点。当采用传统的方法对数据进行处理时,一般都是凭借经验而得到,但是经验知识有限,这就使得数据分类的结果产生偏差,限制了数据分类在实际生活中的应用。而基于机器学习的文本分类算法,既不需要建立复杂的模型,也不需要有准确的先验知识,可充分利用信息技术总结先验经验,自动生成并更新算法。因此深入研究基于机器学习的文本分类方法,不仅具有重要的理论意义,还具有广阔的应用前景。本文主要研究基于文本分类的树扩展型朴素贝叶斯分类算法,并针对该方法模型的构造及应用中存在的问题进行深入的研究,主要工作有以下几个方面:1.树扩展型朴素贝叶斯分类器(TANC)是对朴素贝叶斯分类器(NBC)的有效扩展,该方法继承了NBC的简单高效性,并增强了NBC的泛化能力。针对其仍未能将属性之间的相关性充分表示出来的问题,提出了一种改进TANC模型(ITANC)的方法,该方法充分考虑到属性之间依赖性程度及相关性大小的差异问题,通过选择合适的属性,建立相应的依赖关系,来有效地提高分类精度。并将该方法与NBC及TANC进行对比,实验结果表明,此方法在性能上要优于TANC和NBC。2.树扩展型朴素贝叶斯分类器(TANC)近年来得到广泛应用,具有简单、易实现的特点,但是TANC不能很好的处理连续型数据,并且在遇到属性值缺失的情况下,会把这一部分数据忽略掉,使结果精确度降低。针对这些问题,提出了一种基于C4.5算法的改进TANC算法。该算法首先利用C4.5对数据进行处理,然后建立TANC,最后利用C4.5对TANC剪枝,使TANC中冗余的属性删除,完善TANC,提高了分类精度。实验结果表明,该算法在分类精度上要优于C4.5算法和TANC。3.针对传统的分类方法对不平衡数据集进行分类时,对数据集中少数类的分类准确率不高的问题,提出了一种基于不平衡数据集的改进树扩展型朴素贝叶斯(TANC)算法,该算法首先利用Relief算法对样本中的少数类进行权重分配,并通过给定扩展弧的方向来改进TANC算法,然后通过改进的TANC算法对数据集进行分类。在UCI国际化标准数据集上进行实验测试,结果表明,该算法整体性能明显改善,分类结果得到优化。
【作者】杨佳敏;
【导师】赵小强;梁宗辉;
【作者基本信息】兰州理工大学,控制工程,2014,硕士
【关键词】机器学习;文本分类;NBC;TANC;C4.5算法;不平衡数据集;

【参考文献】
[1]石晶晶.银行企业年金的人力资源管理效用研究[D].吉林大学,公共管理,2014,硕士.
[2]刘珊.湖南隆回花瑶山歌民间音乐文化研究[D].湖南师范大学,音乐学,2014,硕士.
[3]顾守柏,邹勇.基于OPENGIS、COMGIS、RS技术的城市规划资料管理信息系统[J].微型电脑应用.2004(05)
[4]张芳芳.高校公共雕塑研究[D].大连工业大学,设计艺术学,2010,硕士.
[5]袁友伟.基于Web的数据挖掘技术及访问路径模式的研究[J].株洲工学院学报,2001,05:38-40.
[6]徐爽爽.英文股市新闻中概念隐喻的认知研究[D].浙江工商大学,外国语言学及应用语言学,2014,硕士.
[7]赵丽娟.中国春节对青少年的道德教育作用研究[D].华中师范大学,思想政治教育,2014,硕士.
[8]刘社琴.蒺藜提取物对运动训练大鼠血液生化指标、激素水平及自由基代谢影响的实验研究[D].陕西师范大学,运动人体科学,2004,硕士.
[9]张春刚.风险投资的法律组织形式研究[D].华东政法学院,法律,2003,硕士.
[10]赵彪,于庆广,王立雯,肖宜.无主从自均流并联并网电池储能系统[J].电力系统自动化,2012,21:108-112+117.
[11]黄海滨,马广富,庄宇飞,吕跃勇.基于伪谱法的编队卫星队形重构防碰撞轨迹优化[J].控制与决策,2012,04:551-556.
[12]徐晓露.移动社交网络用户隐私安全问题及保护研究[D].重庆大学,新闻与传播(专业学位),2014,硕士.
[13]周振扬.逻辑框架法在大型房地产企业项目管理中的应用研究[D].首都经济贸易大学,工商管理(专业学位),2013,硕士.
[14]田毅,张欣,张良,张昕.神经网络工况识别的混合动力电动汽车模糊控制策略[J].控制理论与应用,2011,03:363-369.
[15]安光辉.基于光电检测原理的棉花质量流量在线测量系统设计及研究[D].石河子大学,农业电气化与自动化,2012,硕士.
[16]林建成.一种图像检索框架的研究及其原型系统的实现[D].福州大学,计算机软件与理论,2004,硕士.
[17]刘涛德.根系对可液化砂土的加固效果及影响因素的研究[D].哈尔滨工业大学,岩土工程,2013,硕士.
[18]李婷.Na~+, K~+//Cl~-,Br~-,B_4O_7~(2-)-H_2O五元体系及其子体系多温相平衡研究[D].成都理工大学,化学工程,2013,硕士.
[19]张浩靖.论我国行政程序价值实现的基础与路径[D].辽宁大学,法律,2012,硕士.
[20]张佳欢,施燕琴,徐晓鹏,陈思,胡杨涛,王旭.加工工艺对密胺树脂/木粉复合材料性能的影响[J].塑料,2012,04:55-57.
[21]张琳琳.城乡义务教育公平中地方政府责任研究[D].吉林大学,政治学理论,2013,硕士.
[22]王晓云.大鼠睾丸间质细胞形态结构、睾酮分泌及LH、AR、ER表达的增龄变化研究[D].河北师范大学,动物学,2004,硕士.
[23]杨明举.旅游资源结构和客源结构的时空差异分析[D].西北师范大学,旅游管理,2013,硕士.
[24]李志彦.高可靠TagTree编码VLSI研究[D].西安电子科技大学,通信与信息系统,2012,硕士.
[25]林岩,毛剑琴.具有理想跟踪特性的鲁棒变结构模型参考自适应控制[J].自动化学报,1999,02:51-58.
[26]安娜.多孔介质中各向异性渗流问题的浸入界面有限元方法[D].山东师范大学,计算数学,2013,硕士.
[27]孙洁,赵强强,王成群,蔡再生.聚乳酸/POSS纳米复合材料的研究进展[J].工程塑料应用,2013,05:112-116.
[28]罗晓燕,陈洁瑜.以学生学习为中心的高等教育质量评估——美国NSSE“全国学生学习投入调查”解析[J].比较教育研究,2007,10:50-54.
[29]骆海明.地级市政府职能转变研究[D].延安大学,行政管理,2014,硕士.
[30]周巍蔚.重构教研室—教学型大学基层组织研究[D].浙江工业大学,2012.
[31]顾正富.TBT对我国出口企业技术创新的影响研究[D].南京师范大学,西方经济学,2012,硕士.
[32]李朋.液压自由活塞柴油机冷却水套的流动及传热分析[D].吉林大学,动力工程,2014,硕士.
[33]马景涛.基于模糊神经网络的加热炉温度控制方法研究[D].东北大学,控制工程,2011,硕士.
[34]齐俊杰.温度刺激响应性碳纳米材料的制备与应用探索[D].天津大学,2013.
[35]鲁维佳.商标俗称的法律保护研究[D].上海大学,民商法学,2014,硕士.
[36]李佳凡.中国惠普行业客户的营销策略研究[D].电子科技大学,工商管理(专业学位),2012,硕士.
[37]谢桂.煤系地层油气资源评价信息系统[D].中国矿业大学,地图学与地理信息系统,2014,硕士.
[38]孟祥龙.基于热分析的祖师麻甘草炙及大黄、牡丹皮、地榆炒炭炮制研究[D].湖北中医药大学,中药学,2013,硕士.
[39]张飞虎.采煤机双SRM同步牵引控制系统的研究[D].辽宁工程技术大学,机械电子工程,2012,硕士.
[40]蔡巧珍.多目标拟态物理学优化算法解集分布性研究[D].太原科技大学,计算机软件与理论,2013,硕士.
[41]包明真.关于重音在不同朗读风格中的分布研究[D].浙江大学,应用语言学,2004,硕士.
[42]李艳丽.“化学反应与能量”主题教学设计研究[D].首都师范大学,学科教学,2013,硕士.
[43]郑郁郁.大学校园门户空间环境研究[D].西安建筑科技大学,建筑设计及其理论,2004,硕士.
[44]李竹青.二元户籍制度研究——一个法律社会学的分析[D].吉林大学,法学理论,2004,硕士.
[45]宁国静,李非里,黄杰勋.厌氧下ShewanellamarisflaviEP1还原转化二甲戊乐灵[J].环境科学与技术,2015,02:19-24.
[46]张佳.臭氧氧化法结合钠法吸收同时脱硫脱硝研究[D].华东理工大学,环境工程,2014,硕士.
[47]李晶.木榄内生真菌的分离鉴定及其次级代谢产物的研究[D].江苏科技大学,生物化学与分子生物学,2014,硕士.
[48]韩春晓.中文期刊个性化搜索引擎的设计与实现[D].哈尔滨工业大学,软件工程,2014,硕士.
[49]刘锐.预设的语义和语用分析[D].河南大学,逻辑学,2004,硕士.
[50]薛禹胜.建立中国南方电网的协调防御体系[J].电力系统自动化,2005,24:2-5.

相关推荐
更多